gscan2pdf est une interface graphique permettant initialement de réaliser des fichiers PDF de plusieurs pages à partir d'un scanneur (ou par importation d'images déjà numérisées) ; gscan2pdf est fonctionnel sur presque n'importe quelle machine Linux/BSD… et notamment sous Ubuntu.
Ce logiciel permet en outre de concaténer plusieurs fichiers images afin d'en obtenir un seul au format PDF, composé de plusieurs pages et dont on peut définir la compression (et donc le poids) en fonction de ses besoins. L'importation de plusieurs fichiers PDF afin de les concaténer est également possible, mais seules les images contenues dans ces PDF seront prises en compte à l'exclusion du texte. Ceci n'est pas un bug mais une limitation du logiciel.
Le scanneur est contrôlé avec SANE par l'intermédiaire de scanimage. La conversion au format PDF est faite par PDF::API2. L'exportation au format TIFF est conduite par libtiff.
gscan2pdf permet d'enregistrer aux formats PDF, DjVu, GIF, JPEG, PNG, PNM et TIFF (la possibilité d'enregistrement au format PS a été ajoutée dans les versions plus récentes, notamment la version 0.9.21, disponible depuis Hardy).
gscan2pdf permet aussi de réaliser de la ROC (reconnaissance optique de caractères) en utilisant au choix les moteurs de ROC tesseract ou GOCR (le premier donnant actuellement de meilleurs résultats). Ainsi, gscan2pdf peut servir d'interface graphique pour la ROC avec Tesseract. L'intégration d'OCRopus pour la ROC sur des documents à mise en page complexe sera faite prochainement dans gscan2pdf (version 0.9.30 sans doute, vers mai-juin 2009).
Pour utiliser gscan2pdf pour réaliser de la ROC, il faut installer tesseract avec ses modules de langue et éventuellement gocr (si on veut comparer !)
sudo mkdir /usr/share/tesseract-ocr
sudo ln -s /usr/local/share/tessdata/ /usr/share/tesseract-ocr/
Sous Hardy, une petite manip similaire semble nécessaire dans certains cas (selon le mode d'installation de tesseract) :
sudo mkdir /usr/share/tesseract-ocr sudo ln -s /usr/share/tessdata/ /usr/share/tesseract-ocr/
Installez les paquets gscan2pdf, djvulibre-bin, unpaper et sane.
wget http://downloads.sourceforge.net/gscan2pdf/gscan2pdf_0.9.23_all.deb sudo dpkg --unpack gscan2pdf_0.9.23_all.deb sudo apt-get install -f
Depuis le 5 mai 2009, la version gscan2pdf_0.9.29 est disponible. Elles est disponible dans les dépôts de Jeffrey Ratcliffe, développeur de gscan2pdf.
Pour ceux qui veulent suivre au plus près les évolutions de gscan2pdf, le plus simple est d'ajouter ces dépôts dans /etc/apt/sources.list :
gpg --keyserver subkeys.pgp.net --recv-keys 4DD7CC93
puis
gpg --export --armor 4DD7CC93 | sudo apt-key add -
Pour Hardy :
deb http://ppa.launchpad.net/jeffreyratcliffe/ubuntu hardy main deb-src http://ppa.launchpad.net/jeffreyratcliffe/ubuntu hardy main
Pour Intrepid :
deb http://ppa.launchpad.net/jeffreyratcliffe/ubuntu intrepid main deb-src http://ppa.launchpad.net/jeffreyratcliffe/ubuntu intrepid main
Pour Jaunty :
deb http://ppa.launchpad.net/jeffreyratcliffe/ubuntu jaunty main deb-src http://ppa.launchpad.net/jeffreyratcliffe/ubuntu jaunty main
Pour Karmic :
deb http://ppa.launchpad.net/jeffreyratcliffe/ubuntu karmic main deb-src http://ppa.launchpad.net/jeffreyratcliffe/ubuntu karmic main
Depuis la version 0.9.25, l'interface est maintenant correctement traduite en français grâce à Simon Leblanc.
L'interface graphique est en français. Il est donc aisé de découvrir les diverses possibilités offertes par gscan2pdf.
Le résultat de la ROC apparait dans la zone blanche de la partie inférieure de la fenêtre gscan2pdf. Si rien n'apparait dans cette zone, ou seulement quelques caractères sans rapport avec le texte à reconnaitre, c'est que la ROC n'a pas fonctionné. Cela peut provenir d'une résolution trop faible du document d'origine ou d'une trop mauvaise qualité de ce document. Selon le mode d'installation de tesseract que vous avez utilisé, certains format de fichier ne seront pas ou seront mal reconnus si vous n'utilisez pas au préalable la fonction "unpaper" (outil –> nettoyer (clean up)) de gscan2pdf.
–> ouvrir le document pdf original avec gimp. Une fenêtre s'ouvre : "importation depuis un PDF" Mettre une résolution 300 et importer. –> on peut si besoin améliorer l'image, par exemple en augmentant le contraste : "Couleurs –> Luminosité/contraste" et augmenter le contraste de 30… 50… ou plus si besoin. –> puis enregistrer le document au format tif : "Fichier –> Enregistrer sous" –> "sélectionner le type de fichier (selon l'extension)" On sélectionne "Image TIFF….. tif,tiff" On nomme le document (en haut de la fenêtre) et "Enregistrer" (sans aucune compression ou avec compression JPEG… selon votre mode d'installation de tesseract).
Lorsque le travail de ROC est terminé, on peut copier/coller le texte de chaque page, une par une. Mais c'est un peu laborieux. On peut aussi